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Beschreibung 

REKONFIGURI ERBARES SCHALTWERK ZUR PARALLELEN BERECHUNG BELIEBIGER ALGORITHM EN 

5 

1 Einleitung 

Die vorliegende Erfindung bezieht sich auf eine Architektur 
einer Rechnereinrichtung zur parallelen Berechnung von Algo- 
10 rithmen mit wenigstens einem Schaltwerk* 

2 Stand der Technik 

2,1 Bekannte Rechnermodelle 

15 

Allgemein wird die sogenannte , Von-Neumann-Architektur \ wie 
sie aus der prinzipiellen Darstellung der Figur 1 hervorgeht, 
als Universalrechnereinrichtung angesehen. Darunter ist zu 
verstehen, dass mithilfe eines Rechners, auf dieser Architek- 

20 tur mit den Komponenten Central Processing Unit [CPU, darin 
enthalten Control Unit (CU) und Arithmetical-Logical Unit 
(ALU)], Memory (Speicher), Input/Output (Ein-/Ausgabe) und 
Bussystem basierend, alle algorithmierbaren Probleme prinzi- 
piell berechnet werden k6nnen. Die Einstellung eines solchen 

25 Rechners auf das jeweilige Problem erfolgt durch ein Pro- 
gramm, d.h., eine textuelle Beschreibung des Algorithmus z.B. 
in den Programmiersprachen C f C++ Oder Java. Dieses Programm 
wird durch einen Ubersetzer (Compiler), selbst ein Programm 
darstellend, in ein Maschinen-lesbares Programm Ubersetzt. 

30 

Die Programmbearbeitung erfolgt in den Rechner, die auf der 
Von-Neumann-Architektur nach Figur 1 und Shnlichen Architek- 
turen (z.B, einer Harvard- Oder modif izierten Harvard- 
Architektur) basieren, prinzipiell auf sequenzielle Weise. 
35 Dies ist so zu verstehen, dass der Algorithmus, bestehend aus 
einer Menge von Maschinen-Instruktionen, dadurch bearbeitet 
wird, dass die erste Instruktion bekannt ist. Die einem Be- 
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fehl nachf olgende Instruktion ist entweder die im Speicher an 
der nSlchsten Adresse stehende (normaler Programmf luss) , Oder 
die letzte ausgefuhrte Instruktion war ein Sprungbef ehl, der 
den aktuellen Programmstand an eine andere Stelle versetzt. 
5 Das interne Register, das den aktuellen Programmstand spei- 
chert, wird mit , Program Counter 1 (PC) bezeichnet. 

Dieses Prinzip der sequenziellen Bearbeitung bedeutet, dass 
sich zu einem Zeitpunkt genau eine Instruktion in der Bear- 

10 beitung bef indet . Es wird als Von-Neumann-Prinzip bezeichnet* 
Moderne Architekturen, die als RISC (Reduced Instruction-Set 
Computing) , superskalar oder VLIW (Very Long Instruction 
Word) bezeichnet werden, fuhren zwar zu einem Zeitpunkt mehr 
als eine Instruktion aus; das Prinzip der SequenzialitSt 

15 bleibt jedoch erhalten . Insgesamt wird dieses Ausf uhrungs- 
prinzip als ' zeit-sequenziell' (Computing in Time) bezeich- 
net , was andeutet, dass der Algorithmus Zeit ben5tigt. 

Ein geinzlich anderes Prinzip der Programmbearbeitung ist in 
20 programmierbaren Logikbausteinen [PLDs (Programmable Logic De- 
vices) , entsprechend Figur 2] bzw. deren bekanntester Imple- 
mentierung, den FPGAs (Field-Programmable Gate Arrays), vor- 
gesehen. Auch diese Architektur ist universell, d.h. fur je- 
des algorithmierbare Problem einsetzbar. Die Programmierung 
25 erfolgt hierbei so, dass element are Recheneinheiten, meist 

auf Bit— Ebene definiert und daher als Logikelemente bezeich- 
net f in einem Netzwerk verschaltet werden. Diese Form der 
Programmierung wird meist als , Konf iguration * bezeichnet. 

30 Die Programmbearbeitung in einem PLD erfolgt im Unterschied 
zum Von-Neumann-Prinzip mit maximaler ParallelitSt • Die ge- 
samte Konf iguration eines Bausteins kann als eine einzige In- 
struktion - im Gegensatz zum Von-Neumann-Prinzip allerdings 
nicht fest definiert, sondern zusammengesetzt - aufgefasst 

35 werden, die in einem Zyklus komplett bearbeitet wird. Die 

Zykluszeit, haufig mit einem externen Takt in Verbindung ge- 
bracht, ist dann von der KomplexitSt der Zusammensetzung ab- 
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hangig. Hierdurch kommt ein im Vergleich zu Prozessoren nied- 
rigerer Takt zum Einsatz, der aber durch die ParallelitSt der 
Ausfuhrung mehr als ausgeglichen wird. Dieses Prinzip der 
Ausfuhrung wird als /Computing in Space * bezeichnet. 

5 

2.2 Deterministische endliche Automaten 

Eines der wesentlichen Modelle zur Algorithmierung von Prob- 
10 lemen sind deterministische endliche Automaten [ DEAs , auch 
DFAs (deterministic finite automata)]. Diese werden in der 
Technik auch als , Finite State Machines * (FSMs gemaB der 
prinzipiellen Darstellung nach Figur 3) bezeichnet. Dieses 
Modell betrachtet das Problem als eine Folge von Zustanden 
15 mit definierten Ubergangsf unktionen (Next State Decoder) zwi- 
scheh diesen, abhangig von den Eingangswerten . Obwohl das Mo- 
dell des DEA theoretisch nicht so mSchtig ist wie das des 
Von-Neumann-Modells, kSnnen in der Praxis beliebige Probleme, 
ggf . mit Zusatz im Modell, gelost werden, 

20 

Das grofite Problem dieser DEAs besteht darin, dass ihre Funk- 
tionen mit der Anzahl der ZustSLnde in exponentieller Weise 
anwachsen, den FISchenbedarf an Halbleitermaterial (insbeson- 
dere Silizium) bet ref fend- Aus diesem Grund wahlt man gerne 
25 Modelle, die aus vielen, miteinander kommunizierenden Automa- 
ten bestehen. Ein derartiges Rechnermodell wird als , komple- 
xer, kooperierender Automat* bezeichnet. 

2.3 Darstellung Boolescher Funktionen 

30 

Eine Boolesche Funktlon oder Schaltfunktion ist eine Abbil- 
dung f: B m -» B n , mit B«{0,1}, die in der Form f - 
(fif f2f ...f n ), also als Vektor von Funktionen f x : B™ -> B 
dargestellt werden kann. Im Folgenden wird daher nur von 
35 Funktionen f K mit einem Ausgangswert ausgegangen; diese wer- 
den allgemein als f bezeichnet. 
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Es ist weiterhin bekannt, dass f in Form einer dis junktiven 
Oder kon junktiven Normalform darstellbar ist- Fur die dis- 
junktive Normalform bedeutet dies, dass 

f = zl + z2 ... + zk, mit k = 1, 2, . . . , 2m und ' +' als OR- 
5 Operator (logisches ODER) (1) 
und 

zi = yl * y2 * ... yn mit i - 1, 2, k mit '*' als AND- 
Operator (logisches UND) (2) 
gilt. Es werden naturlich nur solche zi verwendet, fur die 

10 die zu beschreibende Funktion den Wert TRUE Oder '1' erhalt. 
Die Bezeichnung yj bestimmt dabei, wie ein Inputbit i k aus 
dem Inputvektor x = i 2 / .-i*) werden soil, WShrend fur die 

Inputbit s nur Werte aus der Menge {0, 1J zugelassen sind, 
muss dies fur yj geandert werden: Diesen Werten wird eines 

15 aus den drei Attributen {0, 1, -} zugewiesen. Das Attribut 

r l' fur yj bedeutet dabei, dass i* unverandert genommen wird, 
'0' bedeutet, dass i k invertiert gewShlt werden muss (notiert 
als /i k ) , und steht fur don't care; d.h., i k wird nicht 

verwendet, Werden fur yj nur die Werte {0, 1} als Attribute 

20 verwendet, spricht man von der , kanonisch dis junktiven Nor- 
mal form * . 

Diese Darstellung ist deswegen bedeutend, weil dadurch bei 
bekannter Reihenfolge der Inputbits die Teilausdrucke zi ge- 
25 m&B vorstehender Gleichung (2), auch als , Terme * bezeichnet, 
als sogenannte , Stringterme * darstellbar sind: Bei einer Rei- 
henfolge il, i2, i3 bedeutet "111", dass zl = il * i2 * i3 
ist, "0-1" steht fur z2 = /il * i3 usw. 

30 Bei drei Inputbits ist die Menge aller m6glichen Inputvekto- 
ren v = { 000, 001, 010, 011, 100, 101, 110, 111 } . Falls beispielhaft 
die Funktion f nur an den Eingangsvektor {001,011,111} den 
Wert TRUE erhSlt, brauchen Oder durfen auch nur diese angege- 
ben werden; in Form von Stringterms kann dies durch 111 und 

35 0-1 erfolgen, dies charakterisiert vollstandig die gegebene 
Funktion und ist isomorph zur dis junktiven Normalform 
f - /il * i3 + il * i2 * i3 
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2.4 Content -Addressable Memory (CAM) 

Lese-/Schreib-Speicherelemente [RAM (Random Addressable 
5 Read/Write Memory) J werden ublicherweise zur Speicherung von 
Daten und Programmen genutzt. In diesem Fall liegt eine Ad- 
resse an dem Adressbus an, und nach Ablauf einer Baustein- 
spezifischen Wartezeit ist beim Lesevorgang das gespeicherte 
Datum am Datenbus anliegend und kann welter verwendet werden. 
10 Der Schreibvorgang ist in entsprechender Weise arbeitend. 

Aus Sicht der Instanz, die die Daten erhalten mochte (z.B. 
ein Prozessor), ist die Adresse bekannt, und der gespeicherte 
Inhalt ist vorher unbekannt. Es existieren jedoch Anwendun- 

15 gen, bei der das Verhaltnis genau umgekehrt ist: Der gespei- 
cherte Inhalt ist bekannt, und das Interesse ist, an welcher 
Adresse dieser Inhalt gespeichert ist, wobei die Antwort auch 
'nicht vorhanden' sein kann. Speicherelemente, die diese Art 
der Abfrage unterstutzen, werden als , Content -Addressable Me- 

20 mories^ [CAMs ( Inhalt s-adressierbare Speicherelemente)] be- 
zeichnet . 

Speicherelemente, die als CAM bezeichnet werden und dieses 
Verhalten direkt unterstutzen, gelten als spezielle Bausteine 

25 und sind keineswegs hMufig anzufinden. Fur praktische Anwen- 
dungen kann man jedoch die Funktionalitat des CAM durch ubli- 
che RAM-Bausteine emulieren. Hierzu mussen fur alle Daten, 
die im CAM direkt gespeichert werden wurden, bei einer Abfra- 
ge jedoch nicht der Wert, sondern die Speicheradresse erge- 

30 ben, die korrespondierenden Adressen vorher berechnet werden 
und an der RAM-Adresse, die dem Datum entspricht, gespeichert 
werden . 

2.5 Zellulare Automaten 

35 

Zellulare Automaten [CAs (cellular automata) ] sind eine Menge 
von endliche Automaten, die in einem Feld mit f eststehender 
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Topologie angeordnet sind und weitere Eigenschaf ten besitzen 
(vgl. Literaturzitate [1] und [4]). Diese Menge von FSMs ist 
als n-dimensionales Array (meist gilt n « 2) angeordnet, wo- 
bei jedem Platz feste Koordinaten gegeben sind, Jede FSM be- 
5 sitzt eindeutig Nachbarn, mit denen kommuniziert werden kann. 
Im Fall n = 2 werden meist die 4 umliegenden FSMs (in den 
'Himmelsrichtungen' N, E, W, S, daher auch als ,NEWS- 
Nachbarschaf t * bezeichnet) als Nachbarn angesehen. 

10 Die Kommunikation mit den Nachbarn erfolgt so, dass die Zu- 
stande der direkten Nachbarn lesbar und damit auswertbar 
sind. Mit jedem Zeitschritt wird der Zustand aller Zellen pa- 
rallel berechnet. Sollen Daten aus weiter entfernten Zellen 
fur die Berechnung eines neuen Zustandes genutzt werden, so 

15 mussen diese Daten schrittweise von Zelle zu Zelle transpor- 
tiert werden- Damit sind klassische zellulare Automaten gut 
zur Berechnung von Problemstellungen mit hoher Lokalit&t der 
Daten geeignet . 

20 CAs gelten als universelle Rechner wie die vorher diskutier- 
ten Architekturen; sie .arbeiten zudem vollkommen parallel. 
Soil ein Netz von CAs in eine Hardwareschaltung, z.B. einen 
ASIC Oder auch PLD, abgebildet werden, so steigt die Anzahl 
der Verbindungen linear mit der Zahl der Automaten an. Die 

25 Verbindungen selbst sind je nach gewahlter Topologie nur re- 
lativ kurz und fest verlegt . Der Aufwand zur Kommunikation 
der CAs untereinander ist also relativ gering. Wird als Kom- 
plexitat einer Schaltfunktion der Speicherbedarf angesehen, 
der notig ist, diese Schaltfunktion in ein RAM abzubilden, so 

30 steigt die maximale KomplexitSt der dem Verhalten einer Zelle 
entsprechenden Schaltfunktion exponentiell mit der Anzahl der 
Eingangsvariablen und linear mit der Anzahl der Ausgangsvari- 
ablen der Funktion an. Die Zahl der Eingangsvariablen ist 
hier die Summe aller Bits, die notig sind, die Zustande aller 

35 mit der Zelle verbundenen CAs einschliefllich des Zustandes 

der Zelle selbst zu codieren. Damit ist die maximale Komple- 
xitat der Zelle im Wesentlichen durch die Anzahl der Verbin- 



6 



WO 2005/078599 



PCT/EP2005/050500 



10 



dungen eines jeden Automaten beschrankt . 

Das Konzept der globalen zellularen Automaten [GCAs (global 
cellular automata)] uberwindet die EinschrSnkungen der CAs, 
indem Verbindungen einer Zelle nicht nur zu ihren nachsten 
Nachbarn, sondern zu beliebigen Zellen im gesamten Feld er- 
laubt werden. Damit besitzt ein GCA keine feststehende Topo- 
logie mehr sondern ermoglicht, eine an die Problemstellung 
angepasste und gegebenenf alls zur Laufzeit der Berechnung so- 
gar wechselnde Topologie zu verwenden. Dies kann zu einer er- 
heblichen Beschleunigung in der Programmbearbeitung fuhren. 
Die Anzahl der Verbindungen eines einzelnen Automaten ist ge- 
gebenenf alls durch eine obere Grenze festgelegt. Ist nur eine 
einzelne Verbindung er laubt, so spricht man von einarmigen-, 
15 im allgemeinen Fall von /c-armigen GCAs. 

Als Konsequenz steigt bei der Realisierung eines Feldes von 
GCAs der erf orderliche Aufwand fur die Kommunikation der Zel- 
len untereinander mit der Zahl der Zellen stark an. Die An- 
zahl der moglichen Verbindungen zwischen den einzelnen Auto- 
maten steigt quadratisch mit deren Anzahl. 



20 



Die Komplexitat der einzelnen Automaten selbst bzw. der 
zugrunde liegenden Schaltf unktion hangt wie bei den konventi- 
25 onellen CAs imWesent lichen von der Anzahl der Verbindungen 
einer jeden Zelle ab. Soil ein GCA in eine rekonf igurierbare 
Schaltung (PLD) abgebildet werden, so muss jede einzelne Zel- 
le, die ja beliebige Schaltf unktionen realisieren kann, die 
maximal mogliche KomplexitSt ermoglichen. 

30 

Werden die einzelnen Automaten auf jeweils ein Rechenwerk mit 
lokalem Speicher abgebildet, so kann jede Zelle auch komplexe 
Schaltf unktionen realisieren. Der Aufwand fur eine beliebige 
Kommunikation alle Zellen steigt quadratisch mit der Anzahl 
35 der Zellen. Die Granularitat der Schaltung wird dann bestimmt 
durch die Anzahl der Zellen bzw. die Bitbreite der Verbindun- 
gen zwischen den Zellen. Eine solche Schaltung kann sehr gut 
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GCAs realisieren, die in Anzahl der FSMs und Bitbreite den 
Vorgaben der Schaltung entsprechen. Es konnen auch komplexe 
Schaltfunktionen in jeder einzelnen Zelle realisiert werden. 
Nachteilig wirkt sich jedoch aus, dass GCAs, die in Anzahl 
5 und bendtigter Bitbreite der Verbindungen nicht mit der vor- 
gegebenen Kornigkeit ubereinstimmen, nur schwierig auf die 
Schaltung abgebildet werden kbnnen. 

werden die einzelnen Zellen als Schaltnetz ausgeftihrt, so 
10 muss jede Zelle in der Lage sein, Daten von alien anderen 
Zellen einschliefclich des eigenen Zustands zu verarbeiten. 
Aus diesem Grund muss jedes Schaltnetz Schaltfunktionen rea- 
lisieren konnen, die alle binarcodierten Zustande aller Zel- 
len als Eingabevariablen enthalten konnen. Die Anzahl der 
15 Ausgabevariablen der Schaltf unktion muss es lediglich ermog- 
lichen, alle Zust&nde einer einzelnen Zelle binar zu codie- 
ren. Nachteilig ist hier, dass die Komplexitat der Schalt- 
funktion exponentiell mit der Anzahl der Eingabevariablen an- 
steigt. Ebenfalls nachteilig ist der polynomial ansteigende 
20 Auf wand fur die Kommunikation der Zellen untereinander . 

. »• . 

Eine (re-)konfigurierbare Architektur (PLD) , die zur Aufnahme 
eines GCA geeignet ist f muss also pro FSM eine beliebige Kom- 
plexitSt aufnehmen konnen. Dies bedeutet, dass - falls die 

25 FSMs direkt in eine Zelle des PLDs abgebildet werden sollen - 
die Zellen jede beliebige Funktion aufnehmen mussen. Es ist 
bekannt, dass sich hieraus ein exponent ielles Wachstum der 
Zellengrofce ergibt. Das konf igurierbare Netzwerk in dem PLD 
muss zudem vollst&ndig ausgefuhrt sein, d.h., jeder zellen- 

30 ausgang muss mit jeder anderen Zelle verbindbar sein. Das 

Netzwerk wSchst damit quadratisch an, die Konf iguration des 
Netzwerks ebenfalls. 

Derzeit sind keine PLD-Architekturen am Markt Oder bekannt, 
35 die beide Forderungen erfullen: GroBe Zellen mit einem voll- 
standigen Designraum existieren nicht, es gibt nur kleine 
Zellen mit vollstSndigem Designraum [sogenannte , Look-Up- 
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Table-Struktur' (LUT) ] oder grofie Zellen mit unvollstandigen 
MBglichkeiten zur Abbildung beliebiger Funktionen. Eine voll- 
standige Verbindbarkeit aller Zellen ist nur bei groflen Zel- 
len moglich. Die Abbildung von GCAs auf existierende PLDs ist 
5 damit schwierig, vielfach sogar unmSglich. 

3 Aufgabenstellung 

Aufgabe der vorliegenden Erfindung ist es, die in der Einlei- 
10 tung 1 angegebene Architektur dahingehend auszugestalten, 

dass die vorgenannten Probleme zumindest gemindert sind. Da- 
bei soli insbesondere die Moglichkeit aufgezeigt werden, die 
als ausgezeichnetes Modell zu erachtenden CGAs, die die im 
Algorithmus steckende Parallelitat tatsachlich nutzen konnen, 
15 auf eine programmierbare Hardware wie ein pld abbilden zu 

kSnnen. D.h., es soil eine PLD-Architektur angegeben werden, 
die eine Aufnahme eines beliebigen CGA ermSglicht . 



20 



4 L6sungsansatz 



Die genannte Aufgabe wird erf indungsgemaB mit den in Anspruch 
1 angegebenen MaBnahmen gel6st. DemgemaB soil die Architektur 
mit den eingangs genannten Merkmalen wenigstens ein einzeln 
konfigurierbares und/oder rekonf igurierbares Schaltwerk um- 

25 fassen, das eine Stufe mit Eingangen und eine Stufe mit Aus- 
gangen aufweist, wobei Ausgangsvariable zumindest einiger der 
Ausgange zu einem Zeitpunkt t n -! die Eingangsvariablen an zu- 
geordneten Eingangen des Schaltwerks zum Zeitpunkt t n bilden 
und wobei Mittel zum Speichern der Ausgangsvariablen des 

30 Schaltwerks zwischen den Zeitpunkten t„-! und t n vorgesehen 
sind. Dabei brauchen nicht alle Eingange von (gespeicherten) 
AusgSngen belegt zu sein; sondern es k5nnen auch freie Ein- 
gange exist ieren. AuBerdem k6nnen auch Ausgange vorhanden 
sein, die nicht durchgekoppelt sind, also beispielsweise nur 

35 ein Endergebnis darstellen, das nicht wieder verwendet wird. 

Mit den Zeitpunkten t„-i und t n sind direkt aufeinander fol- 
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gende Auswertungen der Schalt f unktion bezeichnet. In einer 
technisch giinstigen Realisierung kfcnnen diese Zeitpunkte von 
einem eingeprSgten Takt mit einer Taktdauer T abgeleitet wer- 
den, so dass t n - t n - x - k-T mit k=l,2,3, ... gilt. Fur eine 
5 gegebene Anwendung ist hierbei k konstant, fur verschiedene 
Anwendungen kann es unterschiedlich gewShlt werden. 

Nachdem feststeht, dass die Komplexitat der Schalt f unktion 
exponentiell mit der Anzahl der Eingabevariablen und linear 

10 mit der Anzahl der Ausgabevariablen bzw. der Anzahl der Zel- 
len im Feld der abzubildenden GCAs steigt und der Aufwand fur 
die Kommunikation der GCAs untereinander zumindest quadra- 
tisch mit der Anzahl der Zellen ansteigt, ist die erfindungs- 
gem&fie (re-) konf igurierbare Architektur zur Aufnahme von GCAs 

15 geeignet. Hierzu besteht sie aus wenigstens einem einzelnen 
konfigurierbaren Schaltwerk, dessen Ausgangsvariablen zum 
Zeitpunkt t n -i die Eingangsvariablen des Schaltwerks zum Zeit- 
punkt t n bilden. Zwischen den Zeitpunkt en t n -i und t n werden 
die Ausgange des Schaltwerks in einem Speicher wie insbeson- 

20 dere in Registern gespeichert, so dass ein komplexes Schalt- 
werk bzw. eine FSM entsteht . Dabei stellen die einzelnen Stu- 
fen in der Gliederung ebenfalls Schaltwerke dar; nur die Kon- 
figuration liegt in einzelnen Schaltnetzen einer jeden Stufe, 
wobei jede Stufe aus einem konfigurierbaren Schaltnetz und 

25 Speicherelementen besteht. 

Bei der erf indungsgemSfien Architektur sind demnach Schaltnet- 
ze als Boolesche Schaltfunktionseinheiten vorhanden, deren* 
jeweiliger Ausgang von aktuellen Werten am Eingang der Archi- 

30 tektur abhangt, wMhrend unter dem wenigstens einen Schaltwerk 
eine Boolesche Schaltfunktionseinheit zu verstehen ist, deren 
Ausgang von aktuellen Werten am Eingang zu dieser und endlich 
vielen vorangegangenen Zeitpunkten abhangt . Schaltwerke wer- 
den demnach aus Schaltnetzen und zumeist taktf lankengesteuer- 

35 ten Speicherelementen zusammengesetzt . 
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Vorteilhafte Ausgestaltungen der erfindungsgemaBen Architek- 
tur gehen aus den von Anspruch 1 abhangigen Anspriichen her- 
vor. Dabei kann die Ausfuhrungsf orm nach Anspruch 1 mit den 
Merkmalen eines der Unteranspruche oder vorzugsweise auch de- 
nen aus mehreren Unteranspriichen kombiniert werden. DemgemaB 
kann die Architektur noch f olgendermaBen ausgebildet sein: 

- Als Speichermittel konnen Registerspeicherelemente vorge- 
sehen sein, wobei es sich hier im Allgemeinen urn taktflan- 
kengesteuerte Flipf lop-Elemente handelt. 

- Bevorzugt ist das Schaltwerk dreistufig ausgebildet, wobei 
die drei Stufen hintereinander geschaltet sind. Dabei 
dient die zwischen def Stufe mit den EingMngen und der 
Stufe mit den Ausgangen angeordnete zweite Stufe mit Spei- 
cherelementen zur Verarbeitung von in der ersten Stufe er- 
zeugten Daten und zur Weiterleitung von verarbeiteten Da- 
ten an die dritte Stufe. 

- Dabei kann vorteilhaft eine erste Stufe mehrere parallel- 
geschaltete Speicherelemente enthalten, die uber Eingabe- 
leitungen adressierbar sind, wobei jedem Speicherelement 
eine Teilmenge der in einem zugehorenden, ermittelten 
Implikanten gebundenen Eingabevariablen zuzufiihren sind, 
der ersten Stufe eine zweite Stufe mit Speicherelementen 
nachgeordnet sein, die durch Kennungen der einzelnen 
Implikanten zu adressieren sind, 

und 

der zweiten Stufe eine dritte Stufe mit Mitteln zu einer 
disjunktiven Verknupfung der Ausgabewerte der einzelnen 
Implikanten aus den Speicherelementen der zweiten Stufe 
nachgeordnet sein . 

Dabei lassen sich die einzelnen Implikanten bevorzugt 
durch Minimierungsverfahren ermitteln. 

Ferner kann die erste Stufe mit der zweiten Stufe uber we- 
nigstens einen Crossbar-Switch miteinander verkniipft sein. 
Als Speicherelemente kannen vorteilhaft CAMs und/oder RAMs 
vorgesehen sein. 

Besonders vorteilhaft ist wenigstens ein CGA zu integrie- 



ren - 
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- Als Speicherelemente kSnnen magnetoresistive Bauelemente, 
insbesonciere vom TMR-Typ, vorgesehen sein. Entsprechende 
tunnelmagnetoresistive Elemente sind an sich bekannt . 

5 Dabei sei unter einem Speicherelement der Architektur jedes 
interne Element verstanden, das im Allgemeinen aus wenigen 
Transistoren oder vergleichbaren Bausteinen sowie aus den ei- 
gentlichen, die Speicherfunktion ermoglichenden Elementen wie 
z.B. den erwahnten magnetoresistiven Elementen (pro Spei- 
10 chereinheit) zusammengesetzt ist. 

Den vorstehend angegebenen weiteren Ausgestaltungen der er- 
findungsgemaften Architektur liegen insbesondere die nachfol- 
gend dargelegten Uberlegungen zu Grunde: 

15 

Die KomplexitSt einer Schaltfunktion in dem gewahlten Schalt- 
werk steigt zwar linear mit der Anzahl der Ausgabevariablen 
an f jedoch entfSllt samtlicher Aufwand fur die Kommunikation 
der Zellen untereinander . In eine solche Schaltfunktion kdn- 

20 nen viele einzelne Automaten mit wenigen Ausgabevariablen ab- 
gebildet werden, oder wenige GCAs mit vielen Ausgabevariablen 
oder auch eine Mischung verschiedener Zellen. Damit ist keine 
GranularitSt vorgegeben, unddie Kommunikation der FSMs un- 
tereinander ist prinzipiell vollstSndig mdglich. Eine Grenze 

25 ist jedoch durch die maximale Komplexitat der Schaltfunktion 
gesetzt f die das Schaltnetz aufnehmen kann. 

Die Benutzung eines* Schaltwerks mit einer groflen Anzahl von 
Eingangen - dies wird im allgemeinen Fall entstehen, wenn ein 

30 GCA mit einer Anzahl von FSMs abgebildet wird - bedeutet, 
dass wiederum eine Art exponentielle AbhMngigkeit des Fl£- 
chenbedarfs von der Anzahl der EingSnge entstehen kann. Als 
obere Grenze gilt ein Wachstum der Flache mit exp (Anzahl Zu- 
stande), wenn jeder Zustand in einem Bit codiert wird; im 

35 allgemeinen Fall wird der Flachenbedarf geringer sein. Da ei- 
ne universelle Schaltung jedoch den Maximalfall beinhalten 
muss, ware das exponentielle Wachstumsgesetz anzuwenden. 

12 
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25 



30 



Hier ist es als besonders vorteilhaft anzusehen, die Schal- 
tung, die das Schaltwerk aufnimmt, in drei spezielle Ab- 
schnitte/Stufen einzuteilen. Dazu wird nachstehend eine 
(re)konfigurierbare Schaltung dargestellt, die Schaltfunktio- 
nen mit einer grofien Zahl von Eingangsvariablen und einer 
grofien Zahl von Ausgangsvariablen als Schaltwerk realisieren 



kann. 



10 Um ein rekonf igurierbares Schaltwerk fiir Schaltfunktionen zu 
entwerfen, werden als AusgangsOberlegung zwei M6glichkeiten 
betrachtet : 



Zum einen ist es mSglich, eine Schaltf unktion komplett in 
einem RAM-Speicher abzulegen. Die Eingabevariablen der 
Schaltfunktion bilden die Adressbits und adressieren fur 
jede mogliche Kombination von Eingabevariablen eine Spei- 
cherzelle. Der Inhalt dieser Speicherzelle entspricht 
dann dem Wert der Schaltfunktion, die Datenleitungen des 
Speicherelements bilden die Ausgabevariablen der Funkti- 
on. Der Vorteil dieses Konzepts liegt im einfachen Aufbau. 
der Schaltung, der einfachen Rekonf igurierbarkeit, der 
hohen Integrationsdichte von Speicherelementen und der 
festen Zeitdauer, die die Auswertung der Schaltfunktion 
benotigt. Allerdings steigt die Anzahl der benStigten 
Speicherzellen, also die GrSfie des benStigten Speicher- 
elementes exponentiell mit der Anzahl der Eingabevariab- 
len an. Aus diesem Grunde konnen nur kleine Schaltfunkti- 
onen auf diese Weise abgebildet werden. 

Dies ist Stand der Technik in PLDs und wird als Look-Up- 
Table-Struktur bei FPGAs eingesetzt, meist mit 4 binar- 
wertigen Eingangsvariablen und 1 binarwertigen Ausgang. 

35 Eine zweite Moglichkeit, Schaltfunktionen in ein Schalt- 

netz abzubilden, besteht darin, Gatter in einem 2- Oder 
mehrstufigen Netz konf igurierbar anzuordnen. Damit ist es 



13 



WO 2005/078599 



PCT/EP2005/050500 



moglich, Schaltf unktion mit einem minimalen Verbrauch von 
Gattern in Schaltnetze abzubilden. Die Schaltkreistheorie 
stellt hier giinstige Darstellungsf ormen von Schaltf unkti- 
onen wie z.B. die Reed-Muller-Form, Oder auch leistungs- 
5 fahige Algorithmen zur Logikminimierung bereit. Der Vor- 

teil dieses Ansatzes besteht im minimalen Verbrauch von 
Gattern und in der Moglichkeit, leistungsf ahige Verfahren 
und Algorithmen zur Minimierung zu nutzen (vgl. Litera- 
turzitate [2] und [3]). Dieses Verfahren kann gut zur 

10 Darstellung einer festen Schaltf unktion z.B. der Reali- 

sierung eines ROMs genutzt werden. Uber Hardwarebausteine 
wie z.B. Crossbar-Switches konnen die einzelnen Gatter 
rekonf igurierbar verschaltet werden, jedoch steigt hier 
der Aufwand fur die Rekonf igurierbarkeit exponentiell mit 

15 der Anzahl der Eingabevariablen der Schaltf unktion an. 

5 Erlauterung der Erfindung anhand eines konkreten Ausfiih- 
rungsbeispiels 

20 Urn die Vorteile der ersten Moglichkeit/ die hohe Integrier- 
barkeit, die Rekonf igurierbarkeit und die,- Einf achheit der 
Schaltung, und die Vorteile der 2. Variante, den geringen 
Verbrauch von Gatterf unktionen und die Anwendbarkeit moderner 
Verfahren, verbinden zu kSnnen, ist erf indungsgemSB folgender 

25 Ansatz vorgesehen: 

Die Grundidee der angenommenen Ausf uhrungsf orm ist die Ent- 
wicklung eines rekonf igurierbaren Schaltwerks, welches soviel 
logische Funktionalitat wie mdglich in RAM-Bausteinen dar- 
30 stellt, um den Vorteil der hohen Integrationsdichte zu nut- 
zen. Diese RAM-Bausteine sollen in einer mehrstufigen Schal- 
tung rekonf igurierbar miteinander verbunden werden, um nicht 
komplette Schaltf unktionen speichern zu mussen. 

35 1. Stufe: 

Die Eingabevariablen der Schaltf unktion werden durch die Ein- 
gabeleitungen des Schaltnetzes reprSsentiert . Die erste Stufe 
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der Schaltung besteht aus mehreren parallel geschalteten 
Speicherelementen, die durch die Eingabeleitungen adressiert 
werden. Jedem Speicherelement ist dabei eine Teilmenge der 
Eingabeleitungen und damit der Eingabevariablen der Schalt- 
5 funktion zugeordnet . Die durch Minimierungsverf ahren ermit- 
telten Implikanten einer Schaltf unktion (minimierte zi aus 
Gl. (2) bzw. deren Stringterm-Darstellung) werden in Spei- 
cherelementen der Eingangsstufe abgespeichert . Dazu werden in 
jedem Speicherelement, dem im Implikanten gebundene Eingabe- 
10 variablen zugeordnet sind, die Belegung der Eingabevariablen 
im Implikanten und eine eindeutige Kennung zu diesem Impli- 
kanten abgespeichert. Da jedem Baustein nur ein Teil der Ein- 
gabevariablen zugeordnet sind, wird auch nur jeweils ein 
Teilimplikant gespeichert. In Speicherelementen, denen keine 
15 im Implikanten gebundenen Variablen zugeordnet sind, wird 

entsprechend kein Teil des Implikanten gespeichert. Liegt an 
den Eingabeleitungen des Schaltnetzes eine Bitkombination an, 
so geben alle Speicherelement e, die zur Bitkombination pas- 
sende Teilimplikanten enthalten, deren Kennungen iiber die Da- 
20 tenleitungen an die 2. Stufe der Schaltung weiter. 

2. Stufe: 

Die Kennungen der (Teil-) Implikanten adressieren einen Spei- 
cher in einer zweiten Stufe. In diesem Speicher sind die zum 

25 jeweiligen Implikanten gehorigen Bitmuster der Kennungen und 
die Ausgabewerte der Schaltf unktion gespeichert. Entspricht 
das Bitmuster an Kennungen, die von der ersten Stufe gelie- 
fert werden, dem eines gespeicherten Implikanten, so liegt 
dieser Implikant an den Eingangsleitungen der Schaltung an, 

30 Die 2. Stufe der Schaltung leitet dann die Ausgabewerte aller 
Implikanten, die an den Eingabeleitungen anliegen, uber die 
Datenleitungen an die 3. Stufe weiter. 

3. Stufe: 

35 In der 3. Stufe werden die Ausgabewerte der einzelnen Impli- 
kanten disjunktiv (OR) verknupft und bilden so das Ergebnis 
der Schalt funktion. 
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Die Erfindung wird nachfolgend unter Bezugnahme auf die 
Zeichnung anhand eines konkreten Ausf uhrungsbeispieles unter 
5 Berucksichtigung der vorstehenden Uberlegungen noch weiter 
erlautert. Die Zeichnung umfasst folgende Teile, wobei deren 
Figuren 1 bis 3 zum Stand der Technik unter Abschnitt 2 be- 
reits angesprochen wurden: 

10 Figur 1 zeigt den prinzipiellen Aufbau einer Von-Neumann- 
Architektur gem^B dem Stand der Technik, 
Figur 2 zeigt die generelle Struktur eines PLD gemSB dem 
Stand der Technik, 

Figur 3 zeigt den prinzipiellen Aufbau einer FSM in Form ei- 
15 nes Mealy-Automateh gemaB dem Stand der Technik, 

Figur 4 zeigt ein Ausfuhrungsbeispiel eines Speicheraufbaus 

einer erf indungsgem&fien Architektur, 
Figur 5 zeigt die Abbildung von Springtermen auf RAM, wobei 

Teilfigur a) partielle Springterme, Teilfigur b) die 
20 Abbildung auf ein Tag-RAM und Teilfigur c) die Abbil- 

dung auf ein konventionelles RAM veranschaulichen, 
Figur 6 zeigt die Abbildung des Ergebnisses der Stufe 1 einer 

erf indungsgemaBen Architektur auf eine RAM— 

Kombination in Stufe 2, 
25 Figur 7 zeigt eine endgilltige Architektur fur das Beispiel 

[<0,l) 12 -» <0,1) 15! -Funktion] , 
Figur 8 zeigt eine erf indungsgemaBe Architektur fur ein 

Schaltwerk mit groBem Schaltnetz zur Aufnahme eines 

GCA 

30 und 

Figur 9 eine erf indungsgemSBe rekonf igurierbare Architektur 
zur Aufnahme von CGAs. 

Dabei sind in den Figuren sich entsprechende Teile jeweils 
35 mit denselben Bezugszeichen versehen. 

Fur das Ausf iahrungsbeispiel gem3B den Figuren 4 bis 9 sei ei- 
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ne erfindungsgemafie Architektur mit drei Stufen, wie vorste- 
hend angesprochen, angesetzt, und zwar fur eine Schaltfunkti- 
on mit 12 Eingabevariablen, 10 Implikanten und 8 Ausgabevari- 
ablen: Tabelle 1 zeigt hierfur alle Implikanten (auch als 
5 ,Minterme* bezeichnet) fur eine Beispielf unktion an. Die Dar- 
stellung der Stringterme ist so gewahlt, dass hierbei drei 
Vierergruppen entstehen. 

Tabelle 1: Beispiel far eine Implikantentabelle, dargestellt 
10 durch Stringterme 
Implikanten : 

1- 0-11 1100 6. 0100 11 — 0000 

2. 1101 11 — 0000 7. 0001 0000 

3. -0-1 0001 8, 0001 

15 4. — 10 9. 0000 

5. 0100 0001 10. -0-1 0001 1100 

Betrachtet man nun diese Tabelle spaltenweise, wird man fest- 
stellen, dass nur wenige verschiedene Kombinationen in den 
20 Stringtermen vorkommen. Bei einer zweiwertigen Darstellung 

konnte es fur jede Spalte hier 24.= 16 verschiedene Kombina- 
tionen geben, bei dreiwertiger entsprechend 34-81. In dem 
Beispiel kommen hiervon nur 5, 3 und 4 far die Spalten 1-3 
vor, wobei eine Eingangskombination jeweils komplett '-' ist. 

25 

Liegt am Eingang eine Bitkombination als Parameter der 
Schaltfunktion an, so liefert ein Speicherelement , welches 
einen Teilimplikanten mit der anliegenden Bitkombination 
speichert, die Kennung des zugehorigen Implikanten zuriick. 

30 Dieses Speicherelement der ersten Stufe ist in Figur 4 als 3- 
wertiges CAM ausgefiihrt, d.h. r die Eingangsvektoren r die real 
als zweiwertige Information an dem Adressbus anliegt, wird 
mit gespeicherter dreiwertigen Inf ormationen verglichen. Als 
Ausgabe wird eine zu dem Treffer gespeicherte Kennung, eben- 

35 falls dreiwertig, ausgegeben. 

Alle Kennungen zusammen bilden die Kennung der Implikanten- 
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kombination, die am Eingang des Schaltnetzes anliegt. Diese 
Implikantenkombination kann dabei durchaus mehrere Implikan- 
ten umfassen. So k6nnen im dargestellten Beispiel z.B. die 
Implikanten 3, 4 und 8 oder die Kombination der Implikanten 
5 4, 5 und 8 anliegen. Im ersten Fall liegt die Bitkombination 
100001 an der 2. Stufe an, im zweiten Fall die Kombination 
110001. 

Die Kennung der Implikantenkombinationen wird in der 2. Stufe 
10 der Schaltung erkannt und liefert fur jeden beteiligten 

Implikanten den zugehorigen Ausgabewert der Schaltfunktion . 
Diese zweite Stufe besteht nun aus einem dreiwertigen RAM, 
d.h., am die Adressbusinf ormationen dieser Stufe sind drei- 
wertig, die gespeicherten Daten allerdings zweiwertig. 

15 

In der 3, Stufe der Schaltung werden die Ausgabewerte der an- 
liegenden Implikanten disjunktiv verkniipft und bilden zusam- 
men den Funktionswert der Schaltfunktion. 

20 5.1 Speicherelemente Stufe 1 

. « •"•«* 
Als Speicherelement zum Aufnehmen der Teilimplikanten kann - 
wie schoh erwahnt - ein sehr spezieller Baustein bzw. eine 
sehr spezielle Architektur zum Einsatz kommen, hier mit drei- 

25 wertigem CAM gemaB Figur 4 bezeichnet. Hierbei muss prinzi- 

piell noch das Problem der Mehrf achubereinstimmung diskutiert 
werden, was aber im Zusammenhang mit anderen Realisierungs- 
m6glichkeiten erfolgen soli. 

30 Moglich als Einsatz fttr die Stufe 1 ist auch ein vollassozia- 
tiver Cache. Hier kGnnen die Teilimplikanten als sogenannter 
Tag gespeichert werden, das gecachte Datum dient als Kennung 
des erkannten Implikanten. Enthalt jedoch ein Teilimplikant 
ungebundene Variablen, die beim Vergleich mit anliegenden 

35 Bitkombinationen als Don f t-Care (DC) -Stellen zum Ausdruck kom- 
men, so muss fur alle Belegungen dieses Implikanten, die den 
Vergleich mit DC erfullen, ein Tag im Tag-RAM angelegt wer- 
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den, Weiterhin ergeben sich durch den Vergleich mit DC 
Uberschneidungen von Teilimplikanten. So gehort z.B. die Bit- 
kombination 0011 im ersten Teilimplikantenspeicher des obigen 
Beispiels sowohl zum Implikanten 1 als auch zum Implikanten 
5 3, Es sind also nicht nur Kombinationen von Implikanten m6g- 
lich, sondern auch Kombinationen von Teilimplikanten. 

Aus diesem Grunde werden zu einer Realisierung als Teilimpli- 
kantenspeicher normale, d.h. zweiwertige RAM-Bausteine bzw. - 
0 Architekturen verwendet. Jedes dieser RAMs wird durch einen 
Teil der Eingangsleitungen des Schaltnetzes adressiert. An 
den Adressen, deren Bitkombination jeweils demselben Tei- 
limplikanten mit DC-Stellen entsprechen (jede DC-Stelle in 
einem Stringterm bedeutet, dass die Anzahl der zutreffenden 
5 Stellen bei binSrer Codierung urn den Faktor 2 erhoht wird) , 
wird jeweils die gleiche Kennung im Speicher abgelegt. 1st 
die Ausgangsbreite des verwendeten RAMs grower als die zur 
Darstellung der Kennungen notwendige Bitbreite, so kSnnen die 
weiteren Bits als Kontextwert genutzt werden. Dieser Kontext 
kann z.B. eine ungultige Belegung der Eingangsvariablen der 
Schaltfunktion anzeigen. 

Da ein normales RAM keine Statusanzeige fur ein nicht vorhan- 
denes Datum wie z.B, ein Tag-RAM mit seinem Cache-Miss- 
Ausgang besitzt, muss eine Bitkombination auf denjenigen Da- 
tenleitungen, die an die 2. Stufe zum Vergleich der Bitkombi- 
nationen verwendet werden, als Kennzeichnung fur keinen an- 
liegenden Teilimplikanten verwendet werden. In Figur 5 c)' ist 
dies durch die Kennung 8 gegeben. 

5.2 Speicherelemente Stufe 2 

Ebenso wie im bei den RAMs der ersten Stufe zum Speichern der 
Teilimplikanten mussen auch beim Vergleich der Implikanten- 
kombinationen in der 2. Stufe der Schaltung DCs berucksich- 
tigt werden. Deshalb wird auch hier ein normales RAM verwen- 
det. Dieses RAM wird mit der Kennung der Implikantenkombina- 
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tion adressiert. 

Da wieder mehrere Adressen derselben Implikantenkombination 
entsprechen konnen, muss der Speicher der zweiten Stufe auf- 
5 geteilt werden: die Bitkombinat ionen der ersten Stufe adres- 
sieren ein RAM der zweiten Stufe. Dort ist fur jede gultige 
Implikantenkombination ein Index abgelegt, der wiederum ein 
RAM adressiert , welches seinerseits die Ausgabevariablen der 
beteiligten Implikanten enthalt . So kdnnen die verschiedenen 
10 Adressen, die sich durch die Implikantenkombination mit 

Don 1 t-Care-Stellen ergeben, auf denselben Index der Ausgabe- 
werte der Schaltf unktion abgebildet werden. 

Figur 6 zeigt eine entsprechende Abbildung des Ergebnisses 
15 der Stufe 1 auf eine RAM-Kombination in Stufe 2. 

5.3 Endgultige Architektur gemafc Figur 7 

Da ein RAM nur einen einzigen Index liefern kann, mussen in 
20 einer 1. Stufe eines Schaltwerks im Speicher der Ausgabewerte 
die disjunktiv verknupften Ausgabewerte aller an der erkann- 
ten {Combination beteiligten Implikanten aufgenommen werden. 
Damit muss das Ausgabe-RAM in dieser Stufe alle mSglichen 
Funktionswerte der Schaltf unktion speichern k6nnen. Da die 
25 Anzahl der mbglichen Funktionswerte exponentiell mit der An- 
zahl der Ausgabevariablen einer Schaltfunktion ansteigt, wer- 
den mehrere {Combinations- und Ausgabe-Speicher der 2. Stufe 
des Schaltwerks parallel verwendet und' deren Ausgabekombina- 
tionen disjunktiv verknupft. Damit konnen alle Funktionswerte 
30 einer Schaltfunktion erzeugt werden. 

Urn die KapazitSt der einzelnen Kombinationsspeicher besser 
ausnutzen zu konnen, werden alle Datenleitungen der Implikan- 
tenspeicher mit alien Adressleitungen der Kombinationsspei- 
35 cher uber einen Crossbar-Switch verbunden. Damit konnen be- 

liebige Datenleitungen die Adressierung der Kombinations-RAMs 
ubernehmen. Nicht verwendete Datenleitungen kdnnen iiber den 
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Crossbar-Switch als Kontext-Inf ormation weitergeleitet wer- 
den. 

In einem letzten Schritt wird in einer 3, Stufe des Schalt- 
5 werks der erzeugte Ausgabewert bitweise uber die Exklusiv- 

Oder-Funktion mit einem Registerinhalt verknupft, urn einzelne 
Ausgabevariablen invertieren zu konnen und so ggf. kleinere 
Logikminimierungen zu erhalten. Damit besteht die 3. Stufe 
der Schaltung aus der disjunktiven Verknupfung der Ausgabe- 
10 kombinationen und der anschlieBenden moglichen Invertierung 
einzelner Ausgabebits. 

Insgesamt ergibt sich das Prinzipschaltbild der Figur 7 fur 
ein erf indungsgemSBes Schaltwerk. 
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5.4 Diskussion der Architektur 

Die Intention der Erfindung ist es, sowohl eine RAM-basierte 
Architektur zur Implement ierung grofcer Schaltnetze als auch - 
gewissermafien als Anwendung zur Aufnahme einer universellen 
Maschine - diese Architektur zur,Jlufnahine von GCAs anzubie- 
ten. Zur Aufnahme einer beliebigen Funktion im RAM muss der 
Speicherplatz in dem Speicher exponentiell mit der Anzahl der 
Eingange (und linear mit der Anzahl der Ausgange) wachsen. Im 
Fall des obigen Beispiels bedeutet dies, dass eine beliebige 
Funktion mit 12 Ein- und 12 Ausgangen einen Speicherbedarf 
von 4096 * 12 bit entsprechend 6144 Bytes hatte. Bei 32 Ein- 
gangen und 8 Ausgangen waren dies bereits 4 GByte an Spei- 
cherkapazitat . 

Die vorgeschlagene Architektur eines mehrstufigen Netzwerks 
beinhaltet lediglich 211,5 Bytes RAM, namlich: 

3x Implikanten-RAM 16x4 24 Bytes 

3x Kombinations-RAM 64x4 96 Bytes 

3x Ausgabe-RAM 16x12 72 Bytes 

Crossbar-Switch-Konfiguration 18 Bytes 
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Invertierung 12x1 l y 5 Bytes 

Summe 211,5 Bytes 

Damit liegt der wesentliche Vorteil darin, dass diese Archi- 
5 tektur erheblich platzsparender ist als eine LUT-basierte Ar- 
chitektur. Hierbei ist zu berucksichtigen, dass nicht jede 
Funktion auf diese Weise darstellbar ist. 

Urn eine Applikation in diese Architektur abbilden zu konnen, 
10 mtissen mehrere notwendige Bedingungen erfullt sein. Die erste 
Bedingung ist diejenige, dass die Anzahl der verschiedenen 
Teil-Stringterme, die in einer Spalte vorhanden sind, auf die 
RAMs der ersten Stufe abgebildet werden kdnnen. Dies ist au- 
tomat isch dadurch erfullt, dass diese RAMs alle Kombinationen 
15 aufnehmen (weil sie CAMs emulieren) , lediglich die Eingangs- 
breite der Schaltung muss fur Applikation ausreichen. 

Die zweite Bedingung schliefct sich hier an: Die Anzahl der 
verschiedenen Teil-Stringtermkombinationen, die in der Appli- 

20 kation nach Minimierung enthalten sind, muss codierbar sein. 

Dies bedeutet, dass eine Anzahl von Speicherstellen zur Veir- . 
fugung stehen muss. Zur Ef f izienzabschStzung sei m die Ein- 
gangsbreite des Schaltnetzes . Dies wurde bedeuten, dass 2m 
Speicherzellen benotigt wurden, urn die komplette Funktion 

25 darzustellen. 

Wenn k nun die Parallelitat der Bausteine (Anzahl der Bau- 
steine) und 2s die Kapazitat eines Bausteins ist, so muss ■ fur 
eine effizientere Speicherung der Applikation die Ungleichung 
30 k * s ^ m-1 (3) 

gelten, Je deutlicher die Unterschreitung ausf&llt, desto ef- 
fizienter war die Implementierung . 

Bedingung 3 bedeutet, dass die Ausgangsbreite geeignet ge- 
35 wShlt sein muss. 

6 Abbildung von GCAs auf die Architektur 
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Zur Abbildung von GCAs auf die erf indungsgemafie Architektur 
mussen noch Speicherelemente eingefuhrt werden, die takt- 
gesteuert das Fortschreiten in der Rechnung speichern. Dies 
5 hat seine Ursache darin, dass GCAs als Array von FSMs defi- 
niert sind, und diese sind in der Regel synchronisiert • Hier 
ist angenommen , dass ein globaler Takt zur Synchronisation 
genommen wird. Alle Implement ierungen von nicht -globalen, 
insbesondere nicht in gegenseitiger Beziehung stehenden Tak- 
10 ten wiirden zu wesentlichen Problemen fiihren, sind jedoch in 
der Praxis selten anzutreffen. 



Figur 8 zeigt ein weiteres Beispiel fur eine konf igurierbare 
Architektur der vorgeschlagenen Art, nunmehr ausgestattet mit 

15 Registern zur Speicherung von ZustSnden. Zusatzlich ist ein 

weiterer Crossbar-Switch eingefugt, der an dieser Stelle u.a. 
dazu dient, Ein- und Ausgabeschnittstellen fur den Rechner 
bereitzustellen. Dies ist zwar fur das grundlegende Verstand- 
nis der Architektur unerheblich, im praktischen Betrieb je- 

20 doch notwendig, weil ein Rechner mit Auflenanschliissen verse- 
hen sein muss. 
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Der Speicherbedarf dieser beispielhaf ten Architektur berech- 
net sich zu 



8x minterm-RAM 256x8 

8x combination-RAM 64Kx8 

8x output -vector-RAM 256x64 

2xCrossbar-Switch configuration 

Inverting register 64x1 



Sum 



2 KBytes 

512 KBytes 

16 KBytes 

1 KBytes 

8 Bytes 



531 KBytes 



Damit ist verdeutlich, wie gering die Speicheranf orderungen 
sind; ein RAM mit 264 * 64 bit (=267 Bytes) ist jedenfalls 
35 nicht in der Herstellung moglich. Sollten bei einer Applika- 
tion auf dieser Architektur Leitungen von den RAMs der ersten 
Stufe ungenutzt bleiben, konnen diese als Kontextinformatio- 
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nen genutzt werden. Eine Anwendung besteht dabei in der Kon- 
textumschaltung, die fur die RAMs der zweiten Stufe zusatz- 
lich mSglich sein k5nnte. Werden also beispielsweise bei ei- 
nem RAM nur 14 Adressbits benotigt, dann konnen die Informa- 
5 tionen fur diese 14 bit viermal gespeichert werden, also in 
vier verschiedenen Kontexten stehen. 

Aus Figur 9 ist der prinzipielle Aufbau einer rekonf igurier- 
baren Architektur nach der Erfindung zu entnehmen, wie sie 
10 zur Aufnahme von CGAs geeignet ist. Dieser Aufbau stellt eine 
Verallgemeinerung des Aufbaus nach Figur 8 dar. Insbesondere 
sind die RAM-Stufen 1 und 2 durch gestrichelte Linien ver- 
deutlicht. 
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Patentanspruche 

1. Rekonfigurierbare Architektur einer Rechnereinrichtung mit 
wenigstens einem einzeln konf igurierbaren und/oder rekonfigu- 

5 rierbaren Schaltwerk, das eine Stufe mit EingSngen und eine 
Stufe mit Ausgangen aufweist, wobei Ausgangsvariable zumin- 
dest einiger der Ausgange zu einem Zeitpunkt t n -i die Ein- 
gangsvariablen an zugeordneten Eingangen des Schaltwerks zu 
einem Zeitpunkt t n bilden und wobei Mittel zu einem taktge- 
10 steuerten Speichern der Ausgangsvariablen des Schaltwerks 
zwischen den Zeitpunkten t n _i und t n vorgesehen sind. 

2. Architektur nach Anspruch 1, dadurch gekennzeichnet , dass 
die Speichermittel Registerspeicherelemente sind. 

15 

3. Architektur nach Anspruch 1 Oder 2, gekennzeichnet durch 
eine dreistufige Ausbildung des Schaltwerks mit einer Hinter- 
einanderschaltung dreier Stufen. 

20 4. Architektur nach Anspruch 3, gekennzeichnet 

- durch^eine erste Stufe aus mehreren parallel geschalteten 
Speicherelementen, die uber Eingabeleitungen adressierbar 
sind, wobei jedem Speicherelement eine Teilmenge der in 
einem zugeh6renden, ermittelten Implikanten gebundenen 

25 Eingabevariablen zuzufiihren sind, 

- durch eine der ersten Stufe nachgeordnete zweite Stufe mit 
Speicherelementen, die durch die Kennungen der einzelnen 
Implikanten zu adressieren sind, 

und 

30 - durch eine der zweiten Stufe nachgeordnete dritte Stufe 

mit Mitteln zu einer disjuktiven Verkmipfung der Ausgabe- 
werte der einzelnen Implikanten aus den Speicherelementen 
der zweiten Stufe. 

35 5. Architektur nach Anspruch 4, gekennzeichnet durch eine Er- 
mittlung der Implikanten durch Minimierungsverf ahren . 
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6. Architektur nach Anspruch 4 oder 5/ dadurch gekennzeich- 
net, dass die erste Stufe mit der zweiten Stufe uber wenigs- 
tens einen Crossbar-Switch miteinander verknupft ist • 

5 7. Architektur nach einem der vorangehenden Anspruche, ge- 
kennzeichnet durch CAMs- und/oder RAMs als Speicherelemente . 

8. Architektur nach einem der vorangehenden Anspruche, ge- 
kennzeichnet durch eine Integration wenigstens eines CGAs. 

10 

9, Architektur nach einem der vorangehenden Anspruche, ge- 
kennzeichnet durch magnetoresistive Speicherelemente, insbe- 
sondere vom TMR-Typ. 

15 
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